##########################################################
# Junção e padronização dos bancos de dados originais do Enade
# Autoria: Leonardo Rodrigues
# Dados originais disponíveis em: https://www.gov.br/inep/pt-br/acesso-a-informacao/dados-abertos/microdados/enade
# Código escrito e executado no RStudio (Version 1.3.1073)
# Tempo aproximado para rodar o script: 12 minutos
##########################################################

### 1 Preparação ----
# Leitura dos pacotes
library(plyr)
library(dplyr)
library(memisc)
library(descr)
library(tidyverse)
library(stringr)

#criar função para remover acentuação (será utilizada a seguir)
rm_accent <- function(str,pattern="all") {
  # Rotinas e funções úteis V 1.0
  # rm.accent - REMOVE ACENTOS DE PALAVRAS
  # Função que tira todos os acentos e pontuações de um vetor de strings.
  # Parâmetros:
  # str - vetor de strings que terão seus acentos retirados.
  # patterns - vetor de strings com um ou mais elementos indicando quais acentos deverão ser retirados.
  #            Para indicar quais acentos deverão ser retirados, um vetor com os símbolos deverão ser passados.
  #            Exemplo: pattern = c("´", "^") retirará os acentos agudos e circunflexos apenas.
  #            Outras palavras aceitas: "all" (retira todos os acentos, que são "´", "`", "^", "~", "¨", "ç")
  if(!is.character(str))
    str <- as.character(str)
  
  pattern <- unique(pattern)
  
  if(any(pattern=="Ç"))
    pattern[pattern=="Ç"] <- "ç"
  
  symbols <- c(
    acute = "áéíóúÁÉÍÓÚýÝ",
    grave = "àèìòùÀÈÌÒÙ",
    circunflex = "âêîôûÂÊÎÔÛ",
    tilde = "ãõÃÕñÑ",
    umlaut = "äëïöüÄËÏÖÜÿ",
    cedil = "çÇ"
  )
  
  nudeSymbols <- c(
    acute = "aeiouAEIOUyY",
    grave = "aeiouAEIOU",
    circunflex = "aeiouAEIOU",
    tilde = "aoAOnN",
    umlaut = "aeiouAEIOUy",
    cedil = "cC"
  )
  
  accentTypes <- c("´","`","^","~","¨","ç")
  
  if(any(c("all","al","a","todos","t","to","tod","todo")%in%pattern)) # opcao retirar todos
    return(chartr(paste(symbols, collapse=""), paste(nudeSymbols, collapse=""), str))
  
  for(i in which(accentTypes%in%pattern))
    str <- chartr(symbols[i],nudeSymbols[i], str)
  
  return(str)
}

### 2 Tratamento dos bancos de dados por ano ----

#### ENADE 2017 ####
enade1 <- read.table(file = "data/originaisEnade/MICRODADOS_ENADE_2017.txt",header = TRUE, sep=";", dec = ".", colClasses=c(DS_VT_ACE_OFG="character",DS_VT_ACE_OCE="character"))

#selecionando variáveis de interesse
enade <- enade1[, c("NU_ANO", "CO_IES", "CO_CATEGAD",
                    "CO_GRUPO",
                    "CO_UF_CURSO",
                    "NU_IDADE",
                    "TP_SEXO",
                    "CO_TURNO_GRADUACAO",
                    "TP_INSCRICAO",
                    "QE_I02",
                    "QE_I08",
                    "QE_I04",
                    "QE_I05",
                    "QE_I17",
                    "ANO_IN_GRAD")]

#Renomeando as variáveis
colnames(enade) = c("ano", "ies", "inst", "curso", "uf", "idade","sexo","turno", "ingresso", "cor",
                    "renda","escpai","escmae","escola", "inicio")

#Recodificando a variável para padronizar todos os bancos de dados (turno)
enade$matutino <- ifelse(enade$turno == "1", 1,
                         ifelse(enade$turno == "4", 1, 0))


enade$vespertino <- ifelse(enade$turno == "2", 1,
                           ifelse(enade$turno == "4", 1, 0))

enade$noturno <- ifelse(enade$turno == "3", 1, 0)

enade$turno <- NULL
enade$in_matutino <- NULL

#Recodificando a variável para padronizar todos os bancos de dados (tipo de ingresso)
enade$ingresso <- ifelse(enade$ingresso == "1", 0, 99)

#Recodificando a variável para padronizar todos os bancos de dados (tipo de instituição)
enade$inst = ifelse(enade$inst == "1", 0,
                    ifelse(enade$inst == "2", 0,
                           ifelse(enade$inst == "3", 0, 1)))

#nomeando os cursos de acordo com o dicionário do Enade
enade$curso <- as.character(enade$curso)
enade$curso <- revalue(enade$curso,
                       c("21" = "Arquitetura e Urbanismo",
                         "72" = "Tecnologia em Análise e Desenvolvimento de Sistemas",
                         "76" = "Tecnologia em Gestão da Produção Industrial",
                         "79" = "Tecnologia em Redes de Computadores",
                         "701" = "Matemática (Bacharelado)",
                         "702" = "Matemática (Licenciatura)",
                         "903" = "Letras-Português (Bacharelado)",
                         "904" = "Letras-Português (Licenciatura)",
                         "905" = "Letras-Português e Inglês (Licenciatura)",
                         "906" = "Letras-Português e Espanhol (Licenciatura)",
                         "1401" = "Física (Bacharelado)",
                         "1402" = "Física (Licenciatura)",
                         "1501" = "Química (Bacharelado)",
                         "1502" = "Química (Licenciatura)",
                         "1601" = "Ciências Biológicas (Bacharelado)",
                         "1602" = "Ciências Biológicas (Licenciatura)",
                         "2001" = "Pedagogia (Licenciatura)",
                         "2401" = "História (Bacharelado)",
                         "2402" = "História (Licenciatura)",
                         "2501" = "Artes Visuais (Licenciatura)",
                         "3001" = "Geografia (Bacharelado)",
                         "3002" = "Geografia (Licenciatura)",
                         "3201" = "Filosofia (Bacharelado)",
                         "3202" = "Filosofia (Licenciatura)",
                         "3502" = "Educação Física (Licenciatura)",
                         "4003" = "Engenharia Da Computação",
                         "4004" = "Ciência Da Computação (Bacharelado)",
                         "4005" = "Ciência Da Computação (Licenciatura)",
                         "4006" = "Sistemas De Informação",
                         "4301" = "Música (Licenciatura)",
                         "5401" = "Ciências Sociais (Bacharelado)",
                         "5402" = "Ciências Sociais (Licenciatura)",
                         "5710" = "Engenharia Civil",
                         "5806" = "Engenharia Elétrica",
                         "5814" = "Engenharia de Controle e Automação",
                         "5902" = "Engenharia Mecânica",
                         "6002" = "Engenharia de Alimentos",
                         "6008" = "Engenharia Química",
                         "6208" = "Engenharia de Produção",
                         "6306" = "Engenharia",
                         "6307" = "Engenharia Ambiental",
                         "6405" = "Engenharia Florestal",
                         "6407" = "Letras - Inglês",
                         "6409" = "Tecnologia em Gestão da Tecnologia da Informação"))

#nomeando os Estados de acordo com o dicionário do Enade
enade$uf <- as.character(enade$uf)
enade$uf <- revalue(enade$uf,
                    c("11" = "RO",                     "28" = "SE",
                      "12" = "AC",                            "29" = "BA",
                      "13" = "AM",                  "31" = "MG",
                      "14" = "RR",                       "32" = "ES",
                      "15" = "PA",                             "33" = "RJ",
                      "16" = "AP",                         "35" = "SP",
                      "17" = "TO",                     "41" = "PR",
                      "21" = "MA",                    "42" = "SC",
                      "22" = "PI",                                "43" = "RS",
                      "23" = "CE",                            "50" = "MS",
                      "24" = "RN",      "51" = "MT",
                      "25" = "PB",                          "52" = "GO",
                      "26" = "PE",                  "53" = "DF",
                      "27" = "AL"))

#Recodificando a variável para padronizar todos os bancos de dados (sexo)
enade$sexo = ifelse(enade$sexo == "M", 0,
                    ifelse(enade$sexo == "F", 1, 99))

#Recodificando a variável para padronizar todos os bancos de dados (Cor/raça)
enade$cor = ifelse(enade$cor == "A", 0,
                   ifelse(enade$cor == "B", 1,
                          ifelse(enade$cor == "C", 3,
                                 ifelse(enade$cor == "D", 1,
                                        ifelse(enade$cor == "E", 3,
                                               ifelse(enade$cor == "F", 9, 99))))))

#Recodificando a variável para padronizar todos os bancos de dados (renda)
enade$renda <-ifelse(enade$renda == "A", 1,
                     ifelse(enade$renda == "B", 1,
                            ifelse(enade$renda == "C", 1,
                                   ifelse(enade$renda == "D", 1,
                                          ifelse(enade$renda == "E", 1,
                                                 ifelse(enade$renda == "F", 0,
                                                        ifelse(enade$renda == "G", 0, 99)))))))

#Recodificando a variável para padronizar todos os bancos de dados (escolaridade do pai)
enade$escpai = ifelse(enade$escpai == "A", 1,
                      ifelse(enade$escpai == "B", 1,
                             ifelse(enade$escpai == "C", 1,
                                    ifelse(enade$escpai == "D", 1,
                                           ifelse(enade$escpai == "E", 0,
                                                  ifelse(enade$escpai == "F", 0, 99))))))

#Recodificando a variável para padronizar todos os bancos de dados (escolaridade da mãe)
enade$escmae = ifelse(enade$escmae == "A", 1,
                      ifelse(enade$escmae == "B", 1,
                             ifelse(enade$escmae == "C", 1,
                                    ifelse(enade$escmae == "D", 1,
                                           ifelse(enade$escmae == "E", 0,
                                                  ifelse(enade$escmae == "F", 0, 99))))))

#Recodificando a variável para padronizar todos os bancos de dados (tipo de escola que estudou)
enade$escola <- ifelse(enade$escola == "A", 1,
                       ifelse(enade$escola == "B", 0,
                              ifelse(enade$escola == "C", 0,
                                     ifelse(enade$escola == "D", 1,
                                            ifelse(enade$escola == "E", 0,
                                                   ifelse(enade$escola == "F", 1, 99))))))

write.table(enade, "data/originaisEnade/enade2017.txt", sep="\t")

#### ENADE 2016 ####

# As variáveis utilizadas e a descrição detalhada para o Enade de 2017 aplica-se
# para os demais bancos, de acordo com suas particularidades

enade1 <- read.table("data/originaisEnade/microdados_enade_2016.txt",header = TRUE, sep=";", dec = ".", colClasses=c(DS_VT_ACE_OFG="character",DS_VT_ACE_OCE="character"))

enade <- enade1[, c("NU_ANO", "CO_IES", "CO_CATEGAD", "CO_GRUPO",
                    "CO_UF_CURSO",
                    "NU_IDADE",
                    "TP_SEXO",
                    "QE_I02",
                    "QE_I08",
                    "QE_I04",
                    "QE_I05",
                    "QE_I17",
                    "ANO_IN_GRAD")]


colnames(enade) = c("ano", "ies", "inst", "curso", "uf", "idade","sexo",
                    "cor", "renda","escpai","escmae","escola", "inicio")


enade$matutino <- NA
enade$vespertino <- NA
enade$noturno <- NA
#Não existe a variável TP_INSCRIÇÃO. todos são concluintes.
enade$ingresso <- 2


enade$inst = ifelse(enade$inst == "93", 0,
                    ifelse(enade$inst == "115", 0,
                           ifelse(enade$inst == "116", 0,
                                  ifelse(enade$inst == "10001", 0,
                                         ifelse(enade$inst == "10002", 0,
                                                ifelse(enade$inst == "10003", 0, 1))))))

enade$curso <- as.character(enade$curso)
enade$curso <- revalue(enade$curso,
                       c("5" = "MEDICINA VETERINÁRIA",
                         "6" = "ODONTOLOGIA",
                         "12" = "MEDICINA",
                         "17" = "AGRONOMIA",
                         "19" = "FARMÁCIA",
                         "23" = "ENFERMAGEM",
                         "27" = "FONOAUDIOLOGIA",
                         "28" = "NUTRIÇÃO",
                         "36" = "FISIOTERAPIA",
                         "38" = "SERVIÇO SOCIAL",
                         "51" = "ZOOTECNIA",
                         "55" = "BIOMEDICINA",
                         "69" = "TECNOLOGIA EM RADIOLOGIA",
                         "90" = "TECNOLOGIA EM AGRONEGÓCIOS",
                         "91" = "TECNOLOGIA EM GESTÃO HOSPITALAR",
                         "92" = "TECNOLOGIA EM GESTÃO AMBIENTAL",
                         "95" = "TECNOLOGIA EM ESTÉTICA E COSMÉTICA",
                         "3501" = "EDUCAÇÃO FÍSICA (BACHARELADO)"))

enade$uf <- as.character(enade$uf)
enade$uf <- revalue(enade$uf,
                    c("11" = "RO",                     "28" = "SE",
                      "12" = "AC",                            "29" = "BA",
                      "13" = "AM",                  "31" = "MG",
                      "14" = "RR",                       "32" = "ES",
                      "15" = "PA",                             "33" = "RJ",
                      "16" = "AP",                         "35" = "SP",
                      "17" = "TO",                     "41" = "PR",
                      "21" = "MA",                    "42" = "SC",
                      "22" = "PI",                                "43" = "RS",
                      "23" = "CE",                            "50" = "MS",
                      "24" = "RN",      "51" = "MT",
                      "25" = "PB",                          "52" = "GO",
                      "26" = "PE",                  "53" = "DF",
                      "27" = "AL"))

enade$sexo = ifelse(enade$sexo == "M", 0,
                    ifelse(enade$sexo == "F", 1, 99))


enade$cor = ifelse(enade$cor == "A", 0,
                   ifelse(enade$cor == "B", 1,
                          ifelse(enade$cor == "C", 3,
                                 ifelse(enade$cor == "D", 1,
                                        ifelse(enade$cor == "E", 3,
                                               ifelse(enade$cor == "F", 9, 99))))))

enade$renda <-ifelse(enade$renda == "A", 1,
                     ifelse(enade$renda == "B", 1,
                            ifelse(enade$renda == "C", 1,
                                   ifelse(enade$renda == "D", 1,
                                          ifelse(enade$renda == "E", 1,
                                                 ifelse(enade$renda == "F", 0,
                                                        ifelse(enade$renda == "G", 0, 99)))))))

enade$escpai = ifelse(enade$escpai == "A", 1,
                      ifelse(enade$escpai == "B", 1,
                             ifelse(enade$escpai == "C", 1,
                                    ifelse(enade$escpai == "D", 1,
                                           ifelse(enade$escpai == "E", 0,
                                                  ifelse(enade$escpai == "F", 0, 99))))))


enade$escmae = ifelse(enade$escmae == "A", 1,
                      ifelse(enade$escmae == "B", 1,
                             ifelse(enade$escmae == "C", 1,
                                    ifelse(enade$escmae == "D", 1,
                                           ifelse(enade$escmae == "E", 0,
                                                  ifelse(enade$escmae == "F", 0, 99))))))


enade$escola <- ifelse(enade$escola == "A", 1,
                       ifelse(enade$escola == "B", 0,
                              ifelse(enade$escola == "C", 0,
                                     ifelse(enade$escola == "D", 1,
                                            ifelse(enade$escola == "E", 0,
                                                   ifelse(enade$escola == "F", 1, 99))))))


write.table(enade, "data/originaisEnade/enade2016.txt", sep="\t")


#### ENADE 2015 ####
enade1 <-read.table("data/originaisEnade/microdados_enade_2015.txt",header = TRUE, sep=";", dec = ".", colClasses=c(DS_VT_ACE_OFG="character",DS_VT_ACE_OCE="character"))

enade <- enade1[, c("NU_ANO", "CO_IES", "CO_CATEGAD", "CO_GRUPO",
                    "CO_UF_CURSO",
                    "NU_IDADE",
                    "TP_SEXO",
                    "IN_MATUT",
                    "IN_VESPER",
                    "IN_NOTURNO",
                    "TP_INSCRICAO",
                    "QE_I02",
                    "QE_I08",
                    "QE_I04",
                    "QE_I05",
                    "QE_I17",
                    "ANO_IN_GRAD")]

colnames(enade) = c("ano", "ies", "inst", "curso", "uf", "idade","sexo", "matutino", "vespertino",
                    "noturno","ingresso" ,"cor", "renda","escpai","escmae","escola", "inicio")

enade$inst = ifelse(enade$inst == "93", 0,
                    ifelse(enade$inst == "115", 0,
                           ifelse(enade$inst == "116", 0,
                                  ifelse(enade$inst == "10001", 0,
                                         ifelse(enade$inst == "10002", 0,
                                                ifelse(enade$inst == "10003", 0, 1))))))

enade$curso <- as.character(enade$curso)
enade$curso <- revalue(enade$curso,
                       c("1" = "ADMINISTRAÇÃO",
                         "2" = "DIREITO",
                         "13" = "CIÊNCIAS ECONÔMICAS",
                         "18" = "PSICOLOGIA",
                         "22" = "CIÊNCIAS CONTÁBEIS",
                         "26" = "DESIGN",
                         "29" = "TURISMO",
                         "67" = "SECRETARIADO EXECUTIVO",
                         "81" = "RELAÇÕES INTERNACIONAIS",
                         "83" = "TECNOLOGIA EM DESIGN DE MODA",
                         "84" = "TECNOLOGIA EM MARKETING",
                         "85" = "TECNOLOGIA EM PROCESSOS GERENCIAIS",
                         "86" = "TECNOLOGIA EM GESTÃO DE RECURSOS HUMANOS",
                         "87" = "TECNOLOGIA EM GESTÃO FINANCEIRA",
                         "88" = "TECNOLOGIA EM GASTRONOMIA",
                         "93" = "TECNOLOGIA EM GESTÃO COMERCIAL",
                         "94" = "TECNOLOGIA EM LOGÍSTICA",
                         "100" = "ADMINISTRAÇÃO PÚBLICA",
                         "101" = "TEOLOGIA",
                         "102" = "TECNOLOGIA EM COMÉRCIO EXTERIOR",
                         "103" = "TECNOLOGIA EM DESIGN DE INTERIORES",
                         "104" = "TECNOLOGIA EM DESIGN GRÁFICO",
                         "105" = "TECNOLOGIA EM GESTÃO DA QUALIDADE",
                         "106" = "TECNOLOGIA EM GESTÃO PÚBLICA",
                         "803" = "JORNALISMO",
                         "804" = "PUBLICIDADE E PROPAGANDA"))

enade$uf <- as.character(enade$uf)
enade$uf <- revalue(enade$uf,
                    c("11" = "RO",                     "28" = "SE",
                      "12" = "AC",                            "29" = "BA",
                      "13" = "AM",                  "31" = "MG",
                      "14" = "RR",                       "32" = "ES",
                      "15" = "PA",                             "33" = "RJ",
                      "16" = "AP",                         "35" = "SP",
                      "17" = "TO",                     "41" = "PR",
                      "21" = "MA",                    "42" = "SC",
                      "22" = "PI",                                "43" = "RS",
                      "23" = "CE",                            "50" = "MS",
                      "24" = "RN",      "51" = "MT",
                      "25" = "PB",                          "52" = "GO",
                      "26" = "PE",                  "53" = "DF",
                      "27" = "AL"))

table(enade$sexo)
enade$sexo = ifelse(enade$sexo == "M", 0,
                    ifelse(enade$sexo == "F", 1, 99))


enade$cor = ifelse(enade$cor == "A", 0,
                   ifelse(enade$cor == "B", 1,
                          ifelse(enade$cor == "C", 1,
                                 ifelse(enade$cor == "D", 3,
                                        ifelse(enade$cor == "E", 3, 99)))))

enade$renda <-ifelse(enade$renda == "A", 1,
                     ifelse(enade$renda == "B", 1,
                            ifelse(enade$renda == "C", 1,
                                   ifelse(enade$renda == "D", 1,
                                          ifelse(enade$renda == "E", 1,
                                                 ifelse(enade$renda == "F", 0,
                                                        ifelse(enade$renda == "G", 0, 99)))))))

enade$escpai = ifelse(enade$escpai == "A", 1,
                      ifelse(enade$escpai == "B", 1,
                             ifelse(enade$escpai == "C", 1,
                                    ifelse(enade$escpai == "D", 1,
                                           ifelse(enade$escpai == "E", 0,
                                                  ifelse(enade$escpai == "F", 0, 99))))))


enade$escmae = ifelse(enade$escmae == "A", 1,
                      ifelse(enade$escmae == "B", 1,
                             ifelse(enade$escmae == "C", 1,
                                    ifelse(enade$escmae == "D", 1,
                                           ifelse(enade$escmae == "E", 0,
                                                  ifelse(enade$escmae == "F", 0, 99))))))


enade$escola <- ifelse(enade$escola == "A", 1,
                       ifelse(enade$escola == "B", 0,
                              ifelse(enade$escola == "C", 0,
                                     ifelse(enade$escola == "D", 1,
                                            ifelse(enade$escola == "E", 0,
                                                   ifelse(enade$escola == "F", 1, 99))))))

write.table(enade, "data/originaisEnade/enade2015.txt", sep="\t")


#### ENADE 2011 ####

enade1 <- read.table("data/originaisEnade/microdados_enade_2011.txt", header = TRUE, sep=";", dec = ".",colClasses=c(DS_VT_ACE_OFG="character",DS_VT_ACE_OCE="character"))

enade <- enade1[, c("NU_ANO", "CO_IES", "CO_CATEGAD", "CO_GRUPO",
                    "CO_UF_CURSO",
                    "NU_IDADE",
                    "TP_SEXO",
                    "IN_MATUT",
                    "IN_VESPER",
                    "IN_NOTURNO",
                    "TP_INSCRICAO",
                    "QE_I02",
                    "QE_I05",
                    "QE_I13",
                    "QE_I14",
                    "QE_I17",
                    "ANO_IN_GRAD")]


colnames(enade) = c("ano", "ies", "inst", "curso", "uf", "idade","sexo", "matutino", "vespertino",
                    "noturno","ingresso" ,"cor", "renda","escpai","escmae","escola", "inicio")

enade$inst = ifelse(enade$inst == "10001", 0,
                    ifelse(enade$inst == "10002", 0,
                           ifelse(enade$inst == "10003", 0, 1)))


enade$curso <- as.character(enade$curso)
enade$curso <- revalue(enade$curso,
                       c("21" = "ARQUITETURA E URBANISMO",
                         "71" = "TECNOLOGIA EM ALIMENTOS",
                         "72" = "TECNOLOGIA EM ANÁLISE E DESENVOLVIMENTO DE SISTEMAS",
                         "73" = "TECNOLOGIA EM AUTOMAÇÃO INDUSTRIAL",
                         "74" = "TECNOLOGIA EM CONSTRUÇÃO DE EDIFÍCIOS",
                         "75" = "TECNOLOGIA EM FABRICAÇÃO MECÂNICA",
                         "76" = "TECNOLOGIA EM GESTÃO DA PRODUÇÃO INDUSTRIAL",
                         "77" = "TECNOLOGIA EM MANUTENÇÃO INDUSTRIAL",
                         "78" = "TECNOLOGIA EM PROCESSOS QUÍMICOS",
                         "79" = "TECNOLOGIA EM REDES DE COMPUTADORES",
                         "80" = "TECNOLOGIA EM SANEAMENTO AMBIENTAL",
                         "701" = "MATEMÁTICA (BACHARELADO)",
                         "702" = "MATEMÁTICA (LICENCIATURA)",
                         "901" = "LETRAS (BACHARELADO)",
                         "902" = "LETRAS (LICENCIATURA)",
                         "1401" = "FÍSICA (BACHARELADO)",
                         "1402" = "FÍSICA (LICENCIATURA)",
                         "1501" = "QUÍMICA (BACHARELADO)",
                         "1502" = "QUÍMICA (LICENCIATURA)",
                         "1503" = "QUÍMICA (ATRIBUIÇÕES TECNOLÓGICAS)",
                         "1601" = "BIOLOGIA (BACHARELADO)",
                         "1602" = "BIOLOGIA (LICENCIATURA)",
                         "2001" = "PEDAGOGIA (LICENCIATURA)",
                         "2401" = "HISTÓRIA (BACHARELADO)",
                         "2402" = "HISTÓRIA (LICENCIATURA)",
                         "2501" = "ARTES VISUAIS (LICENCIATURA)",
                         "3001" = "GEOGRAFIA (BACHARELADO)",
                         "3002" = "GEOGRAFIA (LICENCIATURA)",
                         "3201" = "FILOSOFIA (BACHARELADO)",
                         "3202" = "FILOSOFIA (LICENCIATURA)",
                         "3501" = "EDUCAÇÃO FÍSICA (LICENCIATURA)",
                         "4004" = "COMPUTAÇÃO (BACHARELADO)",
                         "4005" = "COMPUTAÇÃO (LICENCIATURA)",
                         "4006" = "COMPUTAÇÃO (SISTEMAS DE INFORMAÇÃO)",
                         "4007" = "COMPUTAÇÃO (ENGENHARIA DE COMPUTAÇÃO)",
                         "4301" = "MÚSICA (LICENCIATURA)",
                         "5401" = "CIÊNCIAS SOCIAIS (BACHARELADO)",
                         "5402" = "CIÊNCIAS SOCIAIS (LICENCIATURA)",
                         "5707" = "ENGENHARIA GEOLÓGICA",
                         "5708" = "ENGENHARIA DE AGRIMENSURA",
                         "5709" = "ENGENHARIA CARTOGRÁFICA",
                         "5710" = "ENGENHARIA CIVIL",
                         "5711" = "ENGENHARIA DE RECURSOS HÍDRICOS",
                         "5712" = "ENGENHARIA SANITÁRIA",
                         "5806" = "ENGENHARIA ELÉTRICA",
                         "5807" = "ENGENHARIA INDUSTRIAL ELÉTRICA",
                         "5808" = "ENGENHARIA ELETROTÉCNICA",
                         "5809" = "ENGENHARIA DE COMPUTAÇÃO",
                         "5811" = "ENGENHARIA DE REDES DE COMUNICAÇÃO",
                         "5812" = "ENGENHARIA ELETRÔNICA",
                         "5813" = "ENGENHARIA MECATRÔNICA",
                         "5814" = "ENGENHARIA DE CONTROLE E AUTOMAÇÃO",
                         "5815" = "ENGENHARIA DE TELECOMUNICAÇÕES",
                         "5901" = "ENGENHARIA INDUSTRIAL MECÂNICA",
                         "5902" = "ENGENHARIA MECÂNICA",
                         "5903" = "ENGENHARIA AEROESPACIAL",
                         "5904" = "ENGENHARIA AERONÁUTICA",
                         "5905" = "ENGENHARIA AUTOMOTIVA",
                         "5906" = "ENGENHARIA NAVAL",
                         "6005" = "ENGENHARIA BIOQUÍMICA",
                         "6006" = "ENGENHARIA DE BIOTECNOLOGIA",
                         "6007" = "ENGENHARIA INDUSTRIAL QUÍMICA",
                         "6008" = "ENGENHARIA QUÍMICA",
                         "6009" = "ENGENHARIA DE ALIMENTOS",
                         "6011" = "ENGENHARIA TÊXTIL",
                         "6106" = "ENGENHARIA DE MATERIAIS",
                         "6107" = "ENGENHARIA FÍSICA",
                         "6108" = "ENGENHARIA METALÚRGICA",
                         "6109" = "ENGENHARIA DE MATERIAIS (MADEIRA)",
                         "6110" = "ENGENHARIA DE MATERIAIS (PLÁSTICO)",
                         "6208" = "ENGENHARIA DE PRODUÇÃO",
                         "6209" = "ENGENHARIA DE PRODUÇÃO MECÂNICA",
                         "6210" = "ENGENHARIA DE PRODUÇÃO ELÉTRICA",
                         "6211" = "ENGENHARIA DE PRODUÇÃO QUÍMICA",
                         "6213" = "ENGENHARIA DE PRODUÇÃO DE MATERIAIS",
                         "6214" = "ENGENHARIA DE PRODUÇÃO CIVIL",
                         "6306" = "ENGENHARIA",
                         "6307" = "ENGENHARIA AMBIENTAL",
                         "6308" = "ENGENHARIA INDUSTRIAL",
                         "6309" = "ENGENHARIA DE MINAS",
                         "6310" = "ENGENHARIA DE PETRÓLEO",
                         "6404" = "ENGENHARIA AGRÍCOLA",
                         "6405" = "ENGENHARIA FLORESTAL",
                         "6406" = "ENGENHARIA DE PESCA"))

enade$uf <- as.character(enade$uf)
enade$uf <- revalue(enade$uf,
                    c("11" = "RO",                     "28" = "SE",
                      "12" = "AC",                            "29" = "BA",
                      "13" = "AM",                  "31" = "MG",
                      "14" = "RR",                       "32" = "ES",
                      "15" = "PA",                             "33" = "RJ",
                      "16" = "AP",                         "35" = "SP",
                      "17" = "TO",                     "41" = "PR",
                      "21" = "MA",                    "42" = "SC",
                      "22" = "PI",                                "43" = "RS",
                      "23" = "CE",                            "50" = "MS",
                      "24" = "RN",      "51" = "MT",
                      "25" = "PB",                          "52" = "GO",
                      "26" = "PE",                  "53" = "DF",
                      "27" = "AL"))                       

enade$sexo = ifelse(enade$sexo == "M", 0,
                    ifelse(enade$sexo == "F", 1, 99))


enade$cor = ifelse(enade$cor == "A", 0,
                   ifelse(enade$cor == "B", 1,
                          ifelse(enade$cor == "C", 1,
                                 ifelse(enade$cor == "D", 3,
                                        ifelse(enade$cor == "E", 3, 99)))))

enade$renda <-ifelse(enade$renda == "A", 1,
                     ifelse(enade$renda == "B", 1,
                            ifelse(enade$renda == "C", 1,
                                   ifelse(enade$renda == "D", 1,
                                          ifelse(enade$renda == "E", 1,
                                                 ifelse(enade$renda == "F", 1,
                                                        ifelse(enade$renda == "G", 0,
                                                               ifelse(enade$renda == "H", 0, 99))))))))

enade$escpai = ifelse(enade$escpai == "A", 1,
                      ifelse(enade$escpai == "B", 1,
                             ifelse(enade$escpai == "C", 1,
                                    ifelse(enade$escpai == "D", 1,
                                           ifelse(enade$escpai == "E", 0,
                                                  ifelse(enade$escpai == "F", 0, 99))))))


enade$escmae = ifelse(enade$escmae == "A", 1,
                      ifelse(enade$escmae == "B", 1,
                             ifelse(enade$escmae == "C", 1,
                                    ifelse(enade$escmae == "D", 1,
                                           ifelse(enade$escmae == "E", 0,
                                                  ifelse(enade$escmae == "F", 0, 99))))))

enade$escola <- ifelse(enade$escola == "A", 1,
                       ifelse(enade$escola == "B", 0,
                              ifelse(enade$escola == "C", 1,
                                     ifelse(enade$escola == "D", 0,
                                            ifelse(enade$escola == "E", 1, 99)))))

write.table(enade, "data/originaisEnade/enade2011.txt", sep="\t")


#### ENADE 2010 ####
enade1 <-read.table("data/originaisEnade/microdados_enade_2010.txt",header = TRUE, sep=";", dec = ".", colClasses=c(DS_VT_ACE_OFG="character",DS_VT_ACE_OCE="character"))

enade <- enade1[, c("NU_ANO", "CO_IES", "CO_CATEGAD", "CO_GRUPO",
                    "CO_UF_CURSO",
                    "NU_IDADE",
                    "TP_SEXO",
                    "IN_MATUT",
                    "IN_VESPER",
                    "IN_NOTURNO",
                    "TP_INSCRICAO",
                    "QE_I02",
                    "QE_I05",
                    "QE_I13",
                    "QE_I14",
                    "QE_I17",
                    "ANO_IN_GRAD")]


colnames(enade) = c("ano", "ies", "inst", "curso", "uf", "idade","sexo", "matutino", "vespertino",
                    "noturno","ingresso" ,"cor", "renda","escpai","escmae","escola", "inicio")

enade <- enade[enade$ingresso==0,]

enade$inst = ifelse(enade$inst == "10001", 0,
                    ifelse(enade$inst == "10002", 0,
                           ifelse(enade$inst == "10003", 0, 1)))

enade$curso <- as.character(enade$curso)
enade$curso <- revalue(enade$curso,
                       c("5" = "MEDICINA VETERINÁRIA",
                         "6" = "ODONTOLOGIA",
                         "12" = "MEDICINA",
                         "17" = "AGRONOMIA",
                         "19" = "FARMÁCIA",
                         "23" = "ENFERMAGEM",
                         "27" = "FONOAUDIOLOGIA",
                         "28" = "NUTRIÇÃO",
                         "35" = "EDUCAÇÃO FÍSICA",
                         "36" = "FISIOTERAPIA",
                         "38" = "SERVIÇO SOCIAL",
                         "51" = "ZOOTECNIA",
                         "52" = "TERAPIA OCUPACIONAL",
                         "55" = "BIOMEDICINA",
                         "69" = "TECNOLOGIA EM RADIOLOGIA",
                         "70" = "TECNOLOGIA EM AGROINDÚSTRIA",
                         "90" = "TECNOLOGIA EM AGRONEGÓCIOS",
                         "91" = "TECNOLOGIA EM GESTÃO HOSPITALAR",
                         "92" = "TECNOLOGIA EM GESTÃO AMBIENTAL"))


enade$uf <- as.character(enade$uf)
enade$uf <- revalue(enade$uf,
                    c("11" = "RO",                     "28" = "SE",
                      "12" = "AC",                            "29" = "BA",
                      "13" = "AM",                  "31" = "MG",
                      "14" = "RR",                       "32" = "ES",
                      "15" = "PA",                             "33" = "RJ",
                      "16" = "AP",                         "35" = "SP",
                      "17" = "TO",                     "41" = "PR",
                      "21" = "MA",                    "42" = "SC",
                      "22" = "PI",                                "43" = "RS",
                      "23" = "CE",                            "50" = "MS",
                      "24" = "RN",      "51" = "MT",
                      "25" = "PB",                          "52" = "GO",
                      "26" = "PE",                  "53" = "DF",
                      "27" = "AL"))                       


enade$sexo = ifelse(enade$sexo == "M", 0,
                    ifelse(enade$sexo == "F", 1, 99))

enade$cor = ifelse(enade$cor == "A", 0,
                   ifelse(enade$cor == "B", 1,
                          ifelse(enade$cor == "C", 1,
                                 ifelse(enade$cor == "D", 3,
                                        ifelse(enade$cor == "E", 3, 99)))))

enade$renda <-ifelse(enade$renda == "A", 1,
                     ifelse(enade$renda == "B", 1,
                            ifelse(enade$renda == "C", 1,
                                   ifelse(enade$renda == "D", 1,
                                          ifelse(enade$renda == "E", 1,
                                                 ifelse(enade$renda == "F", 1,
                                                        ifelse(enade$renda == "G", 0,
                                                               ifelse(enade$renda == "H", 0, 99))))))))

enade$escpai = ifelse(enade$escpai == "A", 1,
                      ifelse(enade$escpai == "B", 1,
                             ifelse(enade$escpai == "C", 1,
                                    ifelse(enade$escpai == "D", 1,
                                           ifelse(enade$escpai == "E", 0,
                                                  ifelse(enade$escpai == "F", 0, 99))))))


enade$escmae = ifelse(enade$escmae == "A", 1,
                      ifelse(enade$escmae == "B", 1,
                             ifelse(enade$escmae == "C", 1,
                                    ifelse(enade$escmae == "D", 1,
                                           ifelse(enade$escmae == "E", 0,
                                                  ifelse(enade$escmae == "F", 0, 99))))))

enade$escola <- ifelse(enade$escola == "A", 1,
                       ifelse(enade$escola == "B", 0,
                              ifelse(enade$escola == "C", 1,
                                     ifelse(enade$escola == "D", 0,
                                            ifelse(enade$escola == "E", 1, 99)))))

write.table(enade, "data/originaisEnade/enade2010.txt", sep="\t")

#### ENADE 2009 ####
enade1 <- read.csv("data/originaisEnade/microdados_enade_2009.csv",header=T,sep=";")

enade <- enade1[, c("nu_ano", "co_ies", "cd_catad", "co_grupo",
                    "co_uf_habil",
                    "nu_idade",
                    "tp_sexo",
                    "in_matut",
                    "in_vesper",
                    "in_noturno",
                    "in_grad",
                    "QE_I2",
                    "QE_I5",
                    "QE_I13",
                    "QE_I14",
                    "QE_I17",
                    "ano_in_gra")]


colnames(enade) = c("ano", "ies", "inst", "curso", "uf", "idade","sexo", "matutino", "vespertino",
                    "noturno","ingresso" ,"cor", "renda","escpai","escmae","escola", "inicio")

enade <- enade[enade$ingresso==0,]

enade$inst = ifelse(enade$inst == "1", 0,
                    ifelse(enade$inst == "2", 0,
                           ifelse(enade$inst == "3", 0,
                                  ifelse(enade$inst == "4", 0, 1))))

enade$curso <- as.character(enade$curso)
enade$curso <- revalue(enade$curso,
                       c("1" = "ADMINISTRACAO",
                         "2" = "DIREITO",
                         "8" = "COMUNICACAO SOCIAL",
                         "13" = "CIENCIAS ECONOMICAS",
                         "18" = "PSICOLOGIA",
                         "22" = "CIENCIAS CONTABEIS",
                         "26" = "DESIGN",
                         "29" = "TURISMO",
                         "39" = "TEATRO",
                         "43" = "MUSICA",
                         "65" = "ARQUIVOLOGIA",
                         "66" = "BIBLIOTECONOMIA",
                         "67" = "SECRETARIADO EXECUTIVO",
                         "81" = "RELACOES INTERNACIONAIS",
                         "82" = "ESTATISTICA",
                         "83" = "TECNOLOGIA EM DESIGN DE MODA",
                         "84" = "TECNOLOGIA EM MARKETING",
                         "85" = "TECNOLOGIA EM PROCESSOS GERENCIAIS",
                         "86" = "TECNOLOGIA EM GESTAO DE RECURSOS HUMANOS",
                         "87" = "TECNOLOGIA EM GESTAO FINANCEIRA",
                         "88" = "TECNOLOGIA EM GASTRONOMIA",
                         "89" = "TECNOLOGIA EM GESTAO DE TURISMO"))


enade$uf <- as.character(enade$uf)
enade$uf <- revalue(enade$uf,
                    c("11" = "RO",                     "28" = "SE",
                      "12" = "AC",                            "29" = "BA",
                      "13" = "AM",                  "31" = "MG",
                      "14" = "RR",                       "32" = "ES",
                      "15" = "PA",                             "33" = "RJ",
                      "16" = "AP",                         "35" = "SP",
                      "17" = "TO",                     "41" = "PR",
                      "21" = "MA",                    "42" = "SC",
                      "22" = "PI",                                "43" = "RS",
                      "23" = "CE",                            "50" = "MS",
                      "24" = "RN",      "51" = "MT",
                      "25" = "PB",                          "52" = "GO",
                      "26" = "PE",                  "53" = "DF",
                      "27" = "AL"))                       


enade$sexo = ifelse(enade$sexo == "1", 0,
                    ifelse(enade$sexo == "2", 1, 99))


enade$cor = ifelse(enade$cor == "A", 0,
                   ifelse(enade$cor == "B", 1,
                          ifelse(enade$cor == "C", 1,
                                 ifelse(enade$cor == "D", 3,
                                        ifelse(enade$cor == "E", 3, 99)))))

enade$renda <-ifelse(enade$renda == "A", 1,
                     ifelse(enade$renda == "B", 1,
                            ifelse(enade$renda == "C", 1,
                                   ifelse(enade$renda == "D", 1,
                                          ifelse(enade$renda == "E", 1,
                                                 ifelse(enade$renda == "F", 1,
                                                        ifelse(enade$renda == "G", 0,
                                                               ifelse(enade$renda == "H", 0, 99))))))))
enade$escpai = ifelse(enade$escpai == "A", 1,
                      ifelse(enade$escpai == "B", 1,
                             ifelse(enade$escpai == "C", 1,
                                    ifelse(enade$escpai == "D", 1,
                                           ifelse(enade$escpai == "E", 0,
                                                  ifelse(enade$escpai == "F", 0, 99))))))


enade$escmae = ifelse(enade$escmae == "A", 1,
                      ifelse(enade$escmae == "B", 1,
                             ifelse(enade$escmae == "C", 1,
                                    ifelse(enade$escmae == "D", 1,
                                           ifelse(enade$escmae == "E", 0,
                                                  ifelse(enade$escmae == "F", 0, 99))))))

enade$escola <- ifelse(enade$escola == "A", 1,
                       ifelse(enade$escola == "B", 0,
                              ifelse(enade$escola == "C", 1,
                                     ifelse(enade$escola == "D", 0,
                                            ifelse(enade$escola == "E", 1, 99)))))

write.table(enade, "data/originaisEnade/enade2009.txt", sep="\t")

#### 3 Junção dos bancos de dados ####

#leitura dos bancos
enade2017 <- read.table("data/originaisEnade/enade2017.txt", sep="\t")
enade2016 <- read.table("data/originaisEnade/enade2016.txt", sep="\t")
enade2015 <- read.table("data/originaisEnade/enade2015.txt", sep="\t")
enade2011 <- read.table("data/originaisEnade/enade2011.txt", sep="\t")
enade2010 <- read.table("data/originaisEnade/enade2010.txt", sep="\t")
enade2009 <- read.table("data/originaisEnade/enade2009.txt", sep="\t")

#Junção dos bancos
total <- rbind(enade2009, enade2010, enade2011, enade2015, enade2016, enade2017)

#exclusão dos bancos (liberar memória)
enade2017 <- NULL
enade2016 <- NULL
enade2015 <- NULL
enade2011 <- NULL
enade2010 <- NULL
enade2009 <- NULL

#### 4 Padronização dos cursos, criação de novas variáveis e categorização das variáveis ####

#colocando tudo minúscula
total$curso <- str_to_lower(total$curso)

#removendo a acentuação
total$curso <- rm_accent(total$curso)

#colocando tudo em maiúscula
total$curso <- str_to_upper(total$curso)

#renomeando banco
enade <- total

#recodificando as variáveis (com suas respectivas categorias)
enade$sexo = factor(enade$sexo,
                    levels = c(0, 1, 99),
                    labels = c("Masculino", "Feminino", NA))

enade$cor <- factor(enade$cor,
                    levels = c(0, 1, 3, 9, 99),
                    labels = c("Brancos", "Negros", "outros", "não quis declarar", "omitidos"))

enade$renda <- factor(enade$renda,
                      levels = c(0, 1, 99),
                      labels = c("Acima de 10 salários mínimos", "Até 10 salários mínimos", NA))

enade$escpai <- factor(enade$escpai,
                       levels = c(0, 1, 99),
                       labels = c("Ensino superior ou mais", "Até Ensino Médio", NA))

enade$escmae <- factor(enade$escmae,
                       levels = c(0, 1, 99),
                       labels = c("Ensino superior ou mais", "Até Ensino Médio", NA))

enade$escola <- factor(enade$escola,
                       levels = c(0, 1, 99),
                       labels = c("Todo ou maior parte em escola particular (ou exterior)", "Todo ou maior parte em escola pública", NA))

enade$inst = factor(enade$inst,
                    levels = c(0, 1, 99),
                    labels = c("Pública", "Privada", NA))

#criação da variável DIPLOMA a partir da variável CURSO.
enade$diploma <- enade$curso
enade$diploma <- revalue(enade$diploma,
                         c("ADMINISTRACAO"	= "3",
                           "ADMINISTRACAO PUBLICA" =	"3",
                           "AGRONOMIA" =	"3",
                           "ARQUITETURA E URBANISMO" =	"3",
                           "ARQUIVOLOGIA" =	"3",
                           "ARTES VISUAIS (LICENCIATURA)" =	"2",
                           "BIBLIOTECONOMIA" =	"3",
                           "BIOLOGIA" =	"2",
                           "BIOLOGIA (BACHARELADO)" =	"3",
                           "BIOLOGIA (LICENCIATURA)" =	"2",
                           "BIOMEDICINA" =	"3",
                           "CIENCIA DA COMPUTACAO (BACHARELADO)" =	"3",
                           "CIENCIA DA COMPUTACAO (LICENCIATURA)" = "2",
                           "CIENCIAS BIOLOGICAS (BACHARELADO)" =	"3",
                           "CIENCIAS BIOLOGICAS (LICENCIATURA)" =	"2",
                           "CIENCIAS CONTABEIS" =	"3",
                           "CIENCIAS ECONOMICAS" =	"3",
                           "CIENCIAS SOCIAIS" =	"2",
                           "CIENCIAS SOCIAIS (BACHARELADO)" =	"3",
                           "CIENCIAS SOCIAIS (LICENCIATURA)" =	"2",
                           "CIENICAS CONTABEIS" = "3",
                           "COMPUTACAO" =	"2",
                           "COMPUTACAO (BACHARELADO)" =	"3",
                           "COMPUTACAO (ENGENHARIA DE COMPUTACAO)" = "1",
                           "COMPUTACAO (LICENCIATURA)" =	"2",
                           "COMPUTACAO (SISTEMAS DE INFORMACAO)" =	"3",
                           "COMUNICACAO SOCIAL" =	"3",
                           "DESIGN" =	"3",
                           "DIREITO" =	"6",
                           "EDUCACAO FISICA" =	"2",
                           "EDUCACAO FISICA (BACHARELADO)" =	"3",
                           "EDUCACAO FISICA (LICENCIATURA)" =	"2",
                           "ENFERMAGEM" =	"3",
                           "ENGENHARIA" =	"1",
                           "ENGENHARIA (GRUPO I)" =	"1",
                           "ENGENHARIA (GRUPO II)" =	"1",
                           "ENGENHARIA (GRUPO III)" =	"1",
                           "ENGENHARIA (GRUPO IV)" =	"1",
                           "ENGENHARIA (GRUPO V)" =	"1",
                           "ENGENHARIA (GRUPO VI)" =	"1",
                           "ENGENHARIA (GRUPO VII)" =	"1",
                           "ENGENHARIA (GRUPO VIII)" =	"1",
                           "ENGENHARIA AEROESPACIAL" =	"1",
                           "ENGENHARIA AERONAUTICA" =	"1",
                           "ENGENHARIA AGRICOLA"	= "1",
                           "ENGENHARIA AMBIENTAL" =	"1",
                           "ENGENHARIA AUTOMOTIVA"	= "1",
                           "ENGENHARIA BIOQUIMICA" =	"1",
                           "ENGENHARIA BIOQUIMICA E ENGENHARIA DE BIOTECNOLOGIA" =	"1",
                           "ENGENHARIA CARTOGRAFICA" =	"1",
                           "ENGENHARIA CIVIL" = "1",
                           "ENGENHARIA DA COMPUTACAO"	= "1",
                           "ENGENHARIA DE AGRIMENSURA" =	"1",
                           "ENGENHARIA DE ALIMENTOS" =	"1",
                           "ENGENHARIA DE BIOTECNOLOGIA" =	"1",
                           "ENGENHARIA DE COMPUTACAO"	= "1",
                           "ENGENHARIA DE CONTROLE E AUTOMACAO"	= "1",
                           "ENGENHARIA DE MATERIAIS" =	"1",
                           "ENGENHARIA DE MATERIAIS (MADEIRA)" =	"1",
                           "ENGENHARIA DE MATERIAIS (PLASTICO)" = "1",
                           "ENGENHARIA DE MINAS" =	"1",
                           "ENGENHARIA DE PESCA"	= "1",
                           "ENGENHARIA DE PETROLEO" =	"1",
                           "ENGENHARIA DE PRODUCAO" = "1",
                           "ENGENHARIA DE PRODUCAO CIVIL" =	"1",
                           "ENGENHARIA DE PRODUCAO DE MATERIAIS"	= "1",
                           "ENGENHARIA DE PRODUCAO ELETRICA"	 = "1",
                           "ENGENHARIA DE PRODUCAO MECANICA"	= "1",
                           "ENGENHARIA DE PRODUCAO QUIMICA"	= "1",
                           "ENGENHARIA DE RECURSOS HIDRICOS" =	"1",
                           "ENGENHARIA DE REDES DE COMUNICACAO" =	"1",
                           "ENGENHARIA DE TELECOMUNICACOES" = "1",
                           "ENGENHARIA ELETRICA"	= "1",
                           "ENGENHARIA ELETRONICA"	= "1",
                           "ENGENHARIA ELETROTECNICA"	= "1",
                           "ENGENHARIA FISICA" =	"1",
                           "ENGENHARIA FLORESTAL"	= "1",
                           "ENGENHARIA GEOLOGICA" =	"1",
                           "ENGENHARIA HIDRICA" =	"1",
                           "ENGENHARIA INDUSTRIAL"	= "1",
                           "ENGENHARIA INDUSTRIAL ELETRICA" =	"1",
                           "ENGENHARIA INDUSTRIAL MECANICA"	= "1",
                           "ENGENHARIA INDUSTRIAL QUIMICA" =	"1",
                           "ENGENHARIA MECANICA" =	"1",
                           "ENGENHARIA MECATRONICA"	= "1",
                           "ENGENHARIA METALURGICA" =	"1",
                           "ENGENHARIA NAVAL" = "1",
                           "ENGENHARIA QUIMICA" = "1",
                           "ENGENHARIA QUIMICA E ENGENHARIA INDUSTRIAL QUIMICA" =	"1",
                           "ENGENHARIA SANITARIA" = "1",
                           "ENGENHARIA TEXTIL" =	"1",
                           "ESTATISTICA" =	"3",
                           "FARMACIA" = "3",
                           "FILOSOFIA" =	"2",
                           "FILOSOFIA (BACHARELADO)" =	"3",
                           "FILOSOFIA (LICENCIATURA)" =	"2",
                           "FISICA"	= "2",
                           "FISICA (BACHARELADO)" =	"3",
                           "FISICA (LICENCIATURA)" =	"2",
                           "FISIOTERAPIA"	= "3",
                           "FONOAUDIOLOGIA" =	"3",
                           "GEOGRAFIA" =	"2",
                           "GEOGRAFIA (BACHARELADO)" =	"3",
                           "GEOGRAFIA (LICENCIATURA)" =	"2",
                           "HISTORIA" =	"2",
                           "HISTORIA (BACHARELADO)" =	"3",
                           "HISTORIA (LICENCIATURA)" =	"2",
                           "JORNALISMO" =	"3",
                           "LETRAS" =	"2",
                           "LETRAS-PORTUGUES (BACHARELADO)" =	"3",
                           "LETRAS-PORTUGUES (LICENCIATURA)" =	"2",
                           "LETRAS-PORTUGUES E ESPANHOL (LICENCIATURA)"	= "2",
                           "LETRAS-PORTUGUES E INGLES (LICENCIATURA)" =	"2",
                           "LETRAS - INGLES" =	"2",
                           "LETRAS (BACHARELADO)" =	"3",
                           "LETRAS (LICENCIATURA)" =	"2",
                           "MATEMATICA" =	"2",
                           "MATEMATICA (BACHARELADO)" =	"3",
                           "MATEMATICA (LICENCIATURA)" =	"2",
                           "MEDICINA" =	"5",
                           "MEDICINA VETERINARIA" =	"3",
                           "MUSICA"	= "2",
                           "MUSICA (LICENCIATURA)" =	"3",
                           "NORMAL SUPERIOR" =	"2",
                           "NUTRICAO" =	"3",
                           "ODONTOLOGIA" =	"3",
                           "PEDAGOGIA" =	"2",
                           "PEDAGOGIA (LICENCIATURA)" =	"2",
                           "PSICOLOGIA" =	"3",
                           "PUBLICIDADE E PROPAGANDA" =	"3",
                           "QUIMICA" =	"2",
                           "QUIMICA (ATRIBUICOES TECNOLOGICAS)" =	"4",
                           "QUIMICA (BACHARELADO)" =	"3",
                           "QUIMICA (LICENCIATURA)" =	"2",
                           "RELACOES INTERNACIONAIS" =	"3",
                           "SECRETARIADO EXECUTIVO" =	"3",
                           "SERVICO SOCIAL"	= "3",
                           "SISTEMAS DE INFORMACAO" =	"3",
                           "TEATRO" =	"3",
                           "TECNOLOGIA EM AGROINDUSTRIA"	= "4",
                           "TECNOLOGIA EM AGRONEGOCIOS" =	"4",
                           "TECNOLOGIA EM ALIMENTOS" =	"4",
                           "TECNOLOGIA EM ANALISE E DESENVOLVIMENTO DE SISTEMAS" =	"4",
                           "TECNOLOGIA EM AUTOMACAO INDUSTRIAL"	= "4",
                           "TECNOLOGIA EM COMERCIO EXTERIOR" =	"4",
                           "TECNOLOGIA EM CONSTRUCAO DE EDIFICIOS" =	"4",
                           "TECNOLOGIA EM DESIGN DE INTERIORES" =	"4",
                           "TECNOLOGIA EM DESIGN DE MODA" =	"4",
                           "TECNOLOGIA EM DESIGN GRAFICO" =	"4",
                           "TECNOLOGIA EM ESTETICA E COSMETICA" =	"4",
                           "TECNOLOGIA EM FABRICACAO MECANICA" =	"4",
                           "TECNOLOGIA EM GASTRONOMIA" =	"4",
                           "TECNOLOGIA EM GESTAO AMBIENTAL" =	"4",
                           "TECNOLOGIA EM GESTAO COMERCIAL" =	"4",
                           "TECNOLOGIA EM GESTAO DA PRODUCAO INDUSTRIAL"	= "4",
                           "TECNOLOGIA EM GESTAO DA QUALIDADE" =	"4",
                           "TECNOLOGIA EM GESTAO DA TECNOLOGIA DA INFORMACAO" =	"4",
                           "TECNOLOGIA EM GESTAO DE RECURSOS HUMANOS" =	"4",
                           "TECNOLOGIA EM GESTAO DE TURISMO" =	"4",
                           "TECNOLOGIA EM GESTAO FINANCEIRA" =	"4",
                           "TECNOLOGIA EM GESTAO HOSPITALAR" =	"4",
                           "TECNOLOGIA EM GESTAO PUBLICA" =	"4",
                           "TECNOLOGIA EM LOGISTICA" =	"4",
                           "TECNOLOGIA EM MANUTENCAO INDUSTRIAL"	= "4",
                           "TECNOLOGIA EM MARKETING" =	"4",
                           "TECNOLOGIA EM PROCESSOS GERENCIAIS" =	"4",
                           "TECNOLOGIA EM PROCESSOS QUIMICOS"	= "4",
                           "TECNOLOGIA EM RADIOLOGIA"	= "4",
                           "TECNOLOGIA EM REDES DE COMPUTADORES"	= "4",
                           "TECNOLOGIA EM SANEAMENTO AMBIENTAL"	= "4",
                           "TEOLOGIA"	= "3",
                           "TERAPIA OCUPACIONAL" =	"3",
                           "TURISMO" =	"3",
                           "ZOOTECNIA" =	"3"))

#criação da variável CINE a partir da variável CURSO.
enade$cine <- enade$curso
enade$cine <- revalue(enade$cine,
                      c("ADMINISTRACAO" =	"6",
                        "ADMINISTRACAO PUBLICA" =	"6",
                        "AGRONOMIA" =	"8",
                        "ARQUITETURA E URBANISMO"	= "7",
                        "ARQUIVOLOGIA" =	"3",
                        "ARTES VISUAIS (LICENCIATURA)"	= "1",
                        "BIBLIOTECONOMIA" =	"3",
                        "BIOLOGIA" =	"1",
                        "BIOLOGIA (BACHARELADO)"	= "5",
                        "BIOLOGIA (LICENCIATURA)" =	"1",
                        "BIOMEDICINA"	= "5",
                        "CIENCIA DA COMPUTACAO (BACHARELADO)" =	"6",
                        "CIENCIA DA COMPUTACAO (LICENCIATURA)" =	"1",
                        "CIENCIAS BIOLOGICAS (BACHARELADO)" =	"5",
                        "CIENCIAS BIOLOGICAS (LICENCIATURA)" =	"1",
                        "CIENCIAS CONTABEIS" =	"4",
                        "CIENCIAS ECONOMICAS" =	"3",
                        "CIENCIAS SOCIAIS" =	"1",
                        "CIENCIAS SOCIAIS (BACHARELADO)" =	"3",
                        "CIENCIAS SOCIAIS (LICENCIATURA)" =	"1",
                        "CIENICAS CONTABEIS" =	"4",
                        "COMPUTACAO" =	"1",
                        "COMPUTACAO (BACHARELADO)" =	"6",
                        "COMPUTACAO (ENGENHARIA DE COMPUTACAO)" =	"7",
                        "COMPUTACAO (LICENCIATURA)" =	"1",
                        "COMPUTACAO (SISTEMAS DE INFORMACAO)" =	"6",
                        "COMUNICACAO SOCIAL" =	"3",
                        "DESIGN" =	"2",
                        "DIREITO" =	"4",
                        "EDUCACAO FISICA" =	"1",
                        "EDUCACAO FISICA (BACHARELADO)" =	"10",
                        "EDUCACAO FISICA (LICENCIATURA)" =	"1",
                        "ENFERMAGEM" =	"9",
                        "ENGENHARIA" =	"7",
                        "ENGENHARIA (GRUPO I)" =	"7",
                        "ENGENHARIA (GRUPO II)" =	"7",
                        "ENGENHARIA (GRUPO III)" =	"7",
                        "ENGENHARIA (GRUPO IV)" =	"7",
                        "ENGENHARIA (GRUPO V)" =	"7",
                        "ENGENHARIA (GRUPO VI)" =	"7",
                        "ENGENHARIA (GRUPO VII)" =	"7",
                        "ENGENHARIA (GRUPO VIII)" =	"7",
                        "ENGENHARIA AEROESPACIAL" =	"7",
                        "ENGENHARIA AERONAUTICA" =	"7",
                        "ENGENHARIA AGRICOLA" = "7",
                        "ENGENHARIA AMBIENTAL" =	"7",
                        "ENGENHARIA AUTOMOTIVA"	= "7",
                        "ENGENHARIA BIOQUIMICA" =	"7",
                        "ENGENHARIA BIOQUIMICA E ENGENHARIA DE BIOTECNOLOGIA"	= "7",
                        "ENGENHARIA CARTOGRAFICA" =	"7",
                        "ENGENHARIA CIVIL" =	"7",
                        "ENGENHARIA DA COMPUTACAO" =	"7",
                        "ENGENHARIA DE AGRIMENSURA" =	"7",
                        "ENGENHARIA DE ALIMENTOS" =	"7",
                        "ENGENHARIA DE BIOTECNOLOGIA" =	"7",
                        "ENGENHARIA DE COMPUTACAO" =	"7",
                        "ENGENHARIA DE CONTROLE E AUTOMACAO"	= "7",
                        "ENGENHARIA DE MATERIAIS" =	"7",
                        "ENGENHARIA DE MATERIAIS (MADEIRA)"	= "7",
                        "ENGENHARIA DE MATERIAIS (PLASTICO)" =	"7",
                        "ENGENHARIA DE MINAS" =	"7",
                        "ENGENHARIA DE PESCA" =	"7",
                        "ENGENHARIA DE PETROLEO" =	"7",
                        "ENGENHARIA DE PRODUCAO" =	"7",
                        "ENGENHARIA DE PRODUCAO CIVIL"	= "7",
                        "ENGENHARIA DE PRODUCAO DE MATERIAIS" =	"7",
                        "ENGENHARIA DE PRODUCAO ELETRICA" =	"7",
                        "ENGENHARIA DE PRODUCAO MECANICA" =	"7",
                        "ENGENHARIA DE PRODUCAO QUIMICA" =	"7",
                        "ENGENHARIA DE RECURSOS HIDRICOS" =	"7",
                        "ENGENHARIA DE REDES DE COMUNICACAO" =	"7",
                        "ENGENHARIA DE TELECOMUNICACOES" =	"7",
                        "ENGENHARIA ELETRICA" =	"7",
                        "ENGENHARIA ELETRONICA" =	"7",
                        "ENGENHARIA ELETROTECNICA" =	"7",
                        "ENGENHARIA FISICA" =	"7",
                        "ENGENHARIA FLORESTAL" =	"7",
                        "ENGENHARIA GEOLOGICA" =	"7",
                        "ENGENHARIA HIDRICA" =	"7",
                        "ENGENHARIA INDUSTRIAL" =	"7",
                        "ENGENHARIA INDUSTRIAL ELETRICA" =	"7",
                        "ENGENHARIA INDUSTRIAL MECANICA" =	"7",
                        "ENGENHARIA INDUSTRIAL QUIMICA" =	"7",
                        "ENGENHARIA MECANICA" =	"7",
                        "ENGENHARIA MECATRONICA" =	"7",
                        "ENGENHARIA METALURGICA" =	"7",
                        "ENGENHARIA NAVAL" =	"7",
                        "ENGENHARIA QUIMICA" =	"7",
                        "ENGENHARIA QUIMICA E ENGENHARIA INDUSTRIAL QUIMICA" =	"7",
                        "ENGENHARIA SANITARIA" =	"7",
                        "ENGENHARIA TEXTIL" =	"7",
                        "ESTATISTICA" =	"5",
                        "FARMACIA" =	"9",
                        "FILOSOFIA" =	"1",
                        "FILOSOFIA (BACHARELADO)" =	"2",
                        "FILOSOFIA (LICENCIATURA)" =	"1",
                        "FISICA" =	"1",
                        "FISICA (BACHARELADO)" =	"5",
                        "FISICA (LICENCIATURA)" =	"1",
                        "FISIOTERAPIA" =	"9",
                        "FONOAUDIOLOGIA" =	"9",
                        "GEOGRAFIA" =	"1",
                        "GEOGRAFIA (BACHARELADO)" =	"3",
                        "GEOGRAFIA (LICENCIATURA)" =	"1",
                        "HISTORIA" =	"1",
                        "HISTORIA (BACHARELADO)" =	"2",
                        "HISTORIA (LICENCIATURA)" =	"1",
                        "JORNALISMO" =	"3",
                        "LETRAS" =	"1",
                        "LETRAS-PORTUGUES (BACHARELADO)" =	"2",
                        "LETRAS-PORTUGUES (LICENCIATURA)" =	"1",
                        "LETRAS-PORTUGUES E ESPANHOL (LICENCIATURA)" =	"1",
                        "LETRAS-PORTUGUES E INGLES (LICENCIATURA)" =	"1",
                        "LETRAS - INGLES" =	"1",
                        "LETRAS (BACHARELADO)" =	"2",
                        "LETRAS (LICENCIATURA)" =	"1",
                        "MATEMATICA" =	"1",
                        "MATEMATICA (BACHARELADO)" =	"5",
                        "MATEMATICA (LICENCIATURA)" =	"1",
                        "MEDICINA" =	"9",
                        "MEDICINA VETERINARIA" =	"8",
                        "MUSICA" =	"2",
                        "MUSICA (LICENCIATURA)" =	"1",
                        "NORMAL SUPERIOR" =	"0",
                        "NUTRICAO" =	"9",
                        "ODONTOLOGIA" =	"9",
                        "PEDAGOGIA" =	"1",
                        "PEDAGOGIA (LICENCIATURA)" =	"1",
                        "PSICOLOGIA" =	"3",
                        "PUBLICIDADE E PROPAGANDA" =	"3",
                        "QUIMICA" =	"1",
                        "QUIMICA (ATRIBUICOES TECNOLOGICAS)" =	"0",
                        "QUIMICA (BACHARELADO)" =	"5",
                        "QUIMICA (LICENCIATURA)" =	"1",
                        "RELACOES INTERNACIONAIS" =	"3",
                        "SECRETARIADO EXECUTIVO" =	"4",
                        "SERVICO SOCIAL" =	"9",
                        "SISTEMAS DE INFORMACAO" =	"5",
                        "TEATRO" =	"2",
                        "TECNOLOGIA EM AGROINDUSTRIA" =	"0",
                        "TECNOLOGIA EM AGRONEGOCIOS" =	"0",
                        "TECNOLOGIA EM ALIMENTOS" =	"0",
                        "TECNOLOGIA EM ANALISE E DESENVOLVIMENTO DE SISTEMAS" =	"0",
                        "TECNOLOGIA EM AUTOMACAO INDUSTRIAL" =	"0",
                        "TECNOLOGIA EM COMERCIO EXTERIOR" =	"0",
                        "TECNOLOGIA EM CONSTRUCAO DE EDIFICIOS" =	"0",
                        "TECNOLOGIA EM DESIGN DE INTERIORES" =	"0",
                        "TECNOLOGIA EM DESIGN DE MODA" =	"0",
                        "TECNOLOGIA EM DESIGN GRAFICO" =	"0",
                        "TECNOLOGIA EM ESTETICA E COSMETICA" =	"0",
                        "TECNOLOGIA EM FABRICACAO MECANICA"	= "0",
                        "TECNOLOGIA EM GASTRONOMIA" =	"0",
                        "TECNOLOGIA EM GESTAO AMBIENTAL" =	"0",
                        "TECNOLOGIA EM GESTAO COMERCIAL" =	"0",
                        "TECNOLOGIA EM GESTAO DA PRODUCAO INDUSTRIAL" =	"0",
                        "TECNOLOGIA EM GESTAO DA QUALIDADE" =	"0",
                        "TECNOLOGIA EM GESTAO DA TECNOLOGIA DA INFORMACAO" =	"0",
                        "TECNOLOGIA EM GESTAO DE RECURSOS HUMANOS" =	"0",
                        "TECNOLOGIA EM GESTAO DE TURISMO" =	"0",
                        "TECNOLOGIA EM GESTAO FINANCEIRA" =	"0",
                        "TECNOLOGIA EM GESTAO HOSPITALAR" =	"0",
                        "TECNOLOGIA EM GESTAO PUBLICA" =	"0",
                        "TECNOLOGIA EM LOGISTICA" =	"0",
                        "TECNOLOGIA EM MANUTENCAO INDUSTRIAL" =	"0",
                        "TECNOLOGIA EM MARKETING"	= "0",
                        "TECNOLOGIA EM PROCESSOS GERENCIAIS" =	"0",
                        "TECNOLOGIA EM PROCESSOS QUIMICOS" =	"0",
                        "TECNOLOGIA EM RADIOLOGIA" =	"0",
                        "TECNOLOGIA EM REDES DE COMPUTADORES" =	"0",
                        "TECNOLOGIA EM SANEAMENTO AMBIENTAL" =	"0",
                        "TEOLOGIA" =	"2",
                        "TERAPIA OCUPACIONAL" =	"9",
                        "TURISMO" =	"10",
                        "ZOOTECNIA"	= "8"))

#criação da variável ÁREA a partir da variável CURSO.
enade$area <- enade$curso
enade$area <- revalue(enade$area,
                      c("ADMINISTRACAO" =	"1",
                        "ADMINISTRACAO PUBLICA" =	"1",
                        "AGRONOMIA" =	"9",
                        "ARQUITETURA E URBANISMO" =	"9",
                        "ARQUIVOLOGIA" =	"4",
                        "ARTES VISUAIS (LICENCIATURA)" =	"2",
                        "BIBLIOTECONOMIA" =	"4",
                        "BIOLOGIA" =	"2",
                        "BIOLOGIA (BACHARELADO)" =	"9",
                        "BIOLOGIA (LICENCIATURA)" =	"2",
                        "BIOMEDICINA" =	"9",
                        "CIENCIA DA COMPUTACAO (BACHARELADO)" =	"9",
                        "CIENCIA DA COMPUTACAO (LICENCIATURA)" =	"2",
                        "CIENCIAS BIOLOGICAS (BACHARELADO)" =	"9",
                        "CIENCIAS BIOLOGICAS (LICENCIATURA)" =	"2",
                        "CIENCIAS CONTABEIS" =	"7",
                        "CIENCIAS ECONOMICAS" =	"8",
                        "CIENCIAS SOCIAIS" =	"2",
                        "CIENCIAS SOCIAIS (BACHARELADO)" =	"8",
                        "CIENCIAS SOCIAIS (LICENCIATURA)" =	"2",
                        "CIENICAS CONTABEIS" =	"7",
                        "COMPUTACAO" =	"2",
                        "COMPUTACAO (BACHARELADO)" =	"9",
                        "COMPUTACAO (ENGENHARIA DE COMPUTACAO)"	= "9",
                        "COMPUTACAO (LICENCIATURA)" =	"2",
                        "COMPUTACAO (SISTEMAS DE INFORMACAO)" =	"9",
                        "COMUNICACAO SOCIAL"	= "8",
                        "DESIGN" =	"4",
                        "DIREITO" =	"5",
                        "EDUCACAO FISICA" =	"2",
                        "EDUCACAO FISICA (BACHARELADO)" =	"3",
                        "EDUCACAO FISICA (LICENCIATURA)" =	"2",
                        "ENFERMAGEM" =	"3",
                        "ENGENHARIA" =	"9",
                        "ENGENHARIA (GRUPO I)" =	"9",
                        "ENGENHARIA (GRUPO II)" = "9",
                        "ENGENHARIA (GRUPO III)"	= "9",
                        "ENGENHARIA (GRUPO IV)" =	"9",
                        "ENGENHARIA (GRUPO V)" =	"9",
                        "ENGENHARIA (GRUPO VI)" =	"9",
                        "ENGENHARIA (GRUPO VII)"	= "9",
                        "ENGENHARIA (GRUPO VIII)" =	"9",
                        "ENGENHARIA AEROESPACIAL" =	"9",
                        "ENGENHARIA AERONAUTICA" =	"9",
                        "ENGENHARIA AGRICOLA" =	"9",
                        "ENGENHARIA AMBIENTAL" =	"9",
                        "ENGENHARIA AUTOMOTIVA" =	"9",
                        "ENGENHARIA BIOQUIMICA" =	"9",
                        "ENGENHARIA BIOQUIMICA E ENGENHARIA DE BIOTECNOLOGIA" =	"9",
                        "ENGENHARIA CARTOGRAFICA" =	"9",
                        "ENGENHARIA CIVIL" =	"9",
                        "ENGENHARIA DA COMPUTACAO" =	"9",
                        "ENGENHARIA DE AGRIMENSURA" =	"9",
                        "ENGENHARIA DE ALIMENTOS" =	"9",
                        "ENGENHARIA DE BIOTECNOLOGIA" =	"9",
                        "ENGENHARIA DE COMPUTACAO" =	"9",
                        "ENGENHARIA DE CONTROLE E AUTOMACAO" =	"9",
                        "ENGENHARIA DE MATERIAIS" =	"9",
                        "ENGENHARIA DE MATERIAIS (MADEIRA)" =	"9",
                        "ENGENHARIA DE MATERIAIS (PLASTICO)" =	"9",
                        "ENGENHARIA DE MINAS" =	"9",
                        "ENGENHARIA DE PESCA" =	"9",
                        "ENGENHARIA DE PETROLEO" =	"9",
                        "ENGENHARIA DE PRODUCAO" =	"9",
                        "ENGENHARIA DE PRODUCAO CIVIL" =	"9",
                        "ENGENHARIA DE PRODUCAO DE MATERIAIS" =	"9",
                        "ENGENHARIA DE PRODUCAO ELETRICA" =	"9",
                        "ENGENHARIA DE PRODUCAO MECANICA" =	"9",
                        "ENGENHARIA DE PRODUCAO QUIMICA" =	"9",
                        "ENGENHARIA DE RECURSOS HIDRICOS" =	"9",
                        "ENGENHARIA DE REDES DE COMUNICACAO" =	"9",
                        "ENGENHARIA DE TELECOMUNICACOES" =	"9",
                        "ENGENHARIA ELETRICA" =	"9",
                        "ENGENHARIA ELETRONICA" =	"9",
                        "ENGENHARIA ELETROTECNICA" =	"9",
                        "ENGENHARIA FISICA" =	"9",
                        "ENGENHARIA FLORESTAL" =	"9",
                        "ENGENHARIA GEOLOGICA" =	"9",
                        "ENGENHARIA HIDRICA" =	"9",
                        "ENGENHARIA INDUSTRIAL" =	"9",
                        "ENGENHARIA INDUSTRIAL ELETRICA" =	"9",
                        "ENGENHARIA INDUSTRIAL MECANICA" =	"9",
                        "ENGENHARIA INDUSTRIAL QUIMICA" =	"9",
                        "ENGENHARIA MECANICA" =	"9",
                        "ENGENHARIA MECATRONICA" =	"9",
                        "ENGENHARIA METALURGICA" =	"9",
                        "ENGENHARIA NAVAL" =	"9",
                        "ENGENHARIA QUIMICA" =	"9",
                        "ENGENHARIA QUIMICA E ENGENHARIA INDUSTRIAL QUIMICA" =	"9",
                        "ENGENHARIA SANITARIA" =	"9",
                        "ENGENHARIA TEXTIL" =	"9",
                        "ESTATISTICA" =	"9",
                        "FARMACIA" =	"3",
                        "FILOSOFIA" =	"2",
                        "FILOSOFIA (BACHARELADO)" =	"4",
                        "FILOSOFIA (LICENCIATURA)" =	"2",
                        "FISICA" =	"2",
                        "FISICA (BACHARELADO)" =	"9",
                        "FISICA (LICENCIATURA)" =	"2",
                        "FISIOTERAPIA" =	"3",
                        "FONOAUDIOLOGIA" =	"3",
                        "GEOGRAFIA" =	"2",
                        "GEOGRAFIA (BACHARELADO)" =	"7",
                        "GEOGRAFIA (LICENCIATURA)" =	"2",
                        "HISTORIA" =	"2",
                        "HISTORIA (BACHARELADO)" =	"4",
                        "HISTORIA (LICENCIATURA)" =	"2",
                        "JORNALISMO"	= "8",
                        "LETRAS" =	"2",
                        "LETRAS-PORTUGUES (BACHARELADO)" =	"4",
                        "LETRAS-PORTUGUES (LICENCIATURA)" =	"2",
                        "LETRAS-PORTUGUES E ESPANHOL (LICENCIATURA)"	= "2",
                        "LETRAS-PORTUGUES E INGLES (LICENCIATURA)" =	"2",
                        "LETRAS - INGLES" =	"2",
                        "LETRAS (BACHARELADO)" =	"4",
                        "LETRAS (LICENCIATURA)" =	"2",
                        "MATEMATICA" =	"2",
                        "MATEMATICA (BACHARELADO)" =	"9",
                        "MATEMATICA (LICENCIATURA)" =	"2",
                        "MEDICINA"	= "6",
                        "MEDICINA VETERINARIA"	= "7",
                        "MUSICA" =	"2",
                        "MUSICA (LICENCIATURA)" =	"4",
                        "NORMAL SUPERIOR" =	"0",
                        "NUTRICAO" =	"3",
                        "ODONTOLOGIA" =	"3",
                        "PEDAGOGIA" =	"2",
                        "PEDAGOGIA (LICENCIATURA)" =	"2",
                        "PSICOLOGIA" =	"8",
                        "PUBLICIDADE E PROPAGANDA" =	"8",
                        "QUIMICA" =	"2",
                        "QUIMICA (ATRIBUICOES TECNOLOGICAS)" =	"0",
                        "QUIMICA (BACHARELADO)" =	"9",
                        "QUIMICA (LICENCIATURA)" =	"2",
                        "RELACOES INTERNACIONAIS" =	"8",
                        "SECRETARIADO EXECUTIVO" =	"7",
                        "SERVICO SOCIAL" =	"3",
                        "SISTEMAS DE INFORMACAO" =	"9",
                        "TEATRO" =	"4",
                        "TECNOLOGIA EM AGROINDUSTRIA" =	"0",
                        "TECNOLOGIA EM AGRONEGOCIOS" =	"0",
                        "TECNOLOGIA EM ALIMENTOS" =	"0",
                        "TECNOLOGIA EM ANALISE E DESENVOLVIMENTO DE SISTEMAS" =	"0",
                        "TECNOLOGIA EM AUTOMACAO INDUSTRIAL" =	"0",
                        "TECNOLOGIA EM COMERCIO EXTERIOR" =	"0",
                        "TECNOLOGIA EM CONSTRUCAO DE EDIFICIOS" =	"0",
                        "TECNOLOGIA EM DESIGN DE INTERIORES" =	"0",
                        "TECNOLOGIA EM DESIGN DE MODA"	= "0",
                        "TECNOLOGIA EM DESIGN GRAFICO" =	"0",
                        "TECNOLOGIA EM ESTETICA E COSMETICA" =	"0",
                        "TECNOLOGIA EM FABRICACAO MECANICA" =	"0",
                        "TECNOLOGIA EM GASTRONOMIA" =	"0",
                        "TECNOLOGIA EM GESTAO AMBIENTAL" =	"0",
                        "TECNOLOGIA EM GESTAO COMERCIAL" =	"0",
                        "TECNOLOGIA EM GESTAO DA PRODUCAO INDUSTRIAL" =	"0",
                        "TECNOLOGIA EM GESTAO DA QUALIDADE" =	"0",
                        "TECNOLOGIA EM GESTAO DA TECNOLOGIA DA INFORMACAO" =	"0",
                        "TECNOLOGIA EM GESTAO DE RECURSOS HUMANOS" =	"0",
                        "TECNOLOGIA EM GESTAO DE TURISMO" =	"0",
                        "TECNOLOGIA EM GESTAO FINANCEIRA" =	"0",
                        "TECNOLOGIA EM GESTAO HOSPITALAR" =	"0",
                        "TECNOLOGIA EM GESTAO PUBLICA" =	"0",
                        "TECNOLOGIA EM LOGISTICA" =	"0",
                        "TECNOLOGIA EM MANUTENCAO INDUSTRIAL" =	"0",
                        "TECNOLOGIA EM MARKETING" =	"0",
                        "TECNOLOGIA EM PROCESSOS GERENCIAIS" =	"0",
                        "TECNOLOGIA EM PROCESSOS QUIMICOS" =	"0",
                        "TECNOLOGIA EM RADIOLOGIA" =	"0",
                        "TECNOLOGIA EM REDES DE COMPUTADORES" =	"0",
                        "TECNOLOGIA EM SANEAMENTO AMBIENTAL" =	"0",
                        "TEOLOGIA" =	"4",
                        "TERAPIA OCUPACIONAL" =	"7",
                        "TURISMO" =	"7",
                        "ZOOTECNIA" =	"7"))

#Recodificando a variável DIPLOMA para analisar as áreas imperiais
enade$diploma <- revalue(enade$diploma,
                         c("1" = "Engenharias",
                           "2" = "Licenciaturas",
                           "3" = "Bacharelados",
                           "4" = "Tecnólogos",
                           "5" = "Medicina",
                           "6" = "Direito"))

#Recodificando a variável AREA de acordo com classificação internacional
enade$area <- revalue(enade$area,
                      c("1" = "Business",
                        "2" = "Education",
                        "3" = "Health",
                        "4" = "Humanities",
                        "5" = "Law",
                        "6" = "Medicine",
                        "7" = "Services",
                        "8" = "Social science",
                        "9" = "STEM"))

#Recodificando a variável CINE de acordo com classificação CINE
enade$cine <- revalue(enade$cine,
                      c("0" = "Tecnólogos",
                        "1" = "Educação",
                        "2" = "Artes e Humanidades",
                        "3" =  "Ciências Sociais, Jornalismo e Informação",
                        "4" = "Negócios, Administração e Direito",
                        "5" = "Ciências Naturais, Matemática e Estatística",
                        "6" =  "Tecnologias da Informação e Comunicação",
                        "7" =  "Engenharia, Produção e Construção",
                        "8" = "Agricultura, Recursos Florestais, Recursos Pesqueiros e Veterinária",
                        "9" =  "Saúde e Bem-Estar",
                        "10" = "Serviços"))

#Criando a variável CICLO a partir dos anos de aplicação do enade.
enade$ciclo <- enade$ano
enade$ciclo[enade$ciclo == 2009 | enade$ciclo == 2010 | enade$ciclo == 2011 ] = "2"
enade$ciclo[enade$ciclo == 2015 | enade$ciclo == 2016 | enade$ciclo == 2017 ] = "4"

#Criando a variável Escolaridade dos Pais, com a maior escolaridade do pai ou da mãe.
enade$edu <- case_when(enade$escpai == "Ensino superior ou mais" | enade$escmae == "Ensino superior ou mais"
                       ~ "Ensino superior ou mais",
                       enade$escpai == "Até Ensino Médio" | enade$escmae == "Até Ensino Médio" ~ "Até Ensino Médio")

#Criando a variável região a partir dos Estados
enade$regiao <- recode_factor(enade$uf,
                              "RS" = "Sul e Sudeste",
                              "SC" = "Sul e Sudeste",
                              "PR" = "Sul e Sudeste",
                              "SP" = "Sul e Sudeste",
                              "MG" = "Sul e Sudeste",
                              "RJ" = "Sul e Sudeste",
                              "ES" = "Sul e Sudeste",
                              "MS" = "centro-oeste",
                              "MT" = "centro-oeste",
                              "GO" = "centro-oeste",
                              "DF" = "centro-oeste",
                              "BA" = "norte e nordeste",
                              "SE" = "norte e nordeste",
                              "AL" = "norte e nordeste",
                              "PE" = "norte e nordeste",
                              "PB" = "norte e nordeste",
                              "RN" = "norte e nordeste",
                              "CE" = "norte e nordeste",
                              "PI" = "norte e nordeste",
                              "MA" = "norte e nordeste",
                              "TO" = "norte e nordeste",
                              "PA" = "norte e nordeste",
                              "AP" = "norte e nordeste",
                              "AM" = "norte e nordeste",
                              "RR" = "norte e nordeste",
                              "AC" = "norte e nordeste",
                              "RO" = "norte e nordeste")

enade$regiao1 <- recode_factor(enade$uf,
                               "RS" = "Sul e Sudeste",
                               "SC" = "Sul e Sudeste",
                               "PR" = "Sul e Sudeste",
                               "SP" = "Sul e Sudeste",
                               "MG" = "Sul e Sudeste",
                               "RJ" = "Sul e Sudeste",
                               "ES" = "Sul e Sudeste",
                               "MS" = "outro",
                               "MT" = "outro",
                               "GO" = "outro",
                               "DF" = "outro",
                               "BA" = "outro",
                               "SE" = "outro",
                               "AL" = "outro",
                               "PE" = "outro",
                               "PB" = "outro",
                               "RN" = "outro",
                               "CE" = "outro",
                               "PI" = "outro",
                               "MA" = "outro",
                               "TO" = "outro",
                               "PA" = "outro",
                               "AP" = "outro",
                               "AM" = "outro",
                               "RR" = "outro",
                               "AC" = "outro",
                               "RO" = "outro")

#criando a variável idade com duas categorias: 20 a 30; a partir de 31. 
enade$age <- enade$idade
enade <- enade[enade$age >= 20,]
enade$age <- ifelse((enade$age >= 20 & enade$age <= 30), "20-30",enade$age)
enade$age <- ifelse((enade$age >= 31), "31+",enade$age)

#padronizando a nomenclatura de alguns cursos
enade$curso <- revalue(enade$curso, c("ENGENHARIA DA COMPUTACAO" = "ENGENHARIA DE COMPUTACAO"))
enade$curso <- revalue(enade$curso, c("COMPUTACAO (ENGENHARIA DE COMPUTACAO)" = "ENGENHARIA DE COMPUTACAO"))
enade$curso <- revalue(enade$curso, c("BIOLOGIA (BACHARELADO)" = "CIENCIAS BIOLOGICAS (BACHARELADO)"))
enade$curso <- revalue(enade$curso, c("COMPUTACAO (BACHARELADO)" = "CIENCIA DA COMPUTACAO (BACHARELADO)"))
enade$curso <- revalue(enade$curso, c("COMPUTACAO (SISTEMAS DE INFORMACAO)" = "CIENCIA DA COMPUTACAO (BACHARELADO)"))
enade$curso <- revalue(enade$curso, c("LETRAS-PORTUGUES (LICENCIATURA)" = "LETRAS (LICENCIATURA)"))
enade$curso <- revalue(enade$curso, c("LETRAS-PORTUGUES E ESPANHOL (LICENCIATURA)" = "LETRAS (LICENCIATURA)"))
enade$curso <- revalue(enade$curso, c("LETRAS-PORTUGUES E INGLES (LICENCIATURA)" = "LETRAS (LICENCIATURA)"))
enade$curso <- revalue(enade$curso, c("LETRAS - INGLES" = "LETRAS (LICENCIATURA)"))
enade$curso <- revalue(enade$curso, c("BIOLOGIA (LICENCIATURA)" = "CIENCIAS BIOLOGICAS (LICENCIATURA)"))
enade$curso <- revalue(enade$curso, c("COMPUTACAO (LICENCIATURA)" = "CIENCIA DA COMPUTACAO (LICENCIATURA)"))
enade$curso <- revalue(enade$curso, c("LETRAS-PORTUGUES (BACHARELADO)" = "LETRAS (BACHARELADO)"))


#RETIRANDO CURSOS NÃO PRESENTES EM TODOS ENADES
enade <- enade[enade$curso!= "ENGENHARIA",]
enade <- enade[enade$curso!= "ENGENHARIA AEROESPACIAL",]
enade <- enade[enade$curso!= "ENGENHARIA AERONAUTICA",]
enade <- enade[enade$curso!= "ENGENHARIA AGRICOLA",]
enade <- enade[enade$curso!= "ENGENHARIA AUTOMOTIVA",]
enade <- enade[enade$curso!= "ENGENHARIA BIOQUIMICA",]
enade <- enade[enade$curso!= "ENGENHARIA BIOQUIMICA E ENGENHARIA DE BIOTECNOLOGIA",]
enade <- enade[enade$curso!= "ENGENHARIA CARTOGRAFICA",]
enade <- enade[enade$curso!= "ENGENHARIA DE AGRIMENSURA",]
enade <- enade[enade$curso!= "ENGENHARIA DE BIOTECNOLOGIA",]
enade <- enade[enade$curso!= "ENGENHARIA DE MATERIAIS",]
enade <- enade[enade$curso!= "ENGENHARIA DE MATERIAIS (MADEIRA)",]
enade <- enade[enade$curso!= "ENGENHARIA DE MATERIAIS (PLASTICO)",]
enade <- enade[enade$curso!= "ENGENHARIA DE MINAS",]
enade <- enade[enade$curso!= "ENGENHARIA DE PESCA",]
enade <- enade[enade$curso!= "ENGENHARIA DE PETROLEO",]
enade <- enade[enade$curso!= "ENGENHARIA DE PRODUCAO CIVIL",]
enade <- enade[enade$curso!= "ENGENHARIA DE PRODUCAO DE MATERIAIS",]
enade <- enade[enade$curso!= "ENGENHARIA DE PRODUCAO ELETRICA",]
enade <- enade[enade$curso!= "ENGENHARIA DE PRODUCAO MECANICA",]
enade <- enade[enade$curso!= "ENGENHARIA DE PRODUCAO QUIMICA",]
enade <- enade[enade$curso!= "ENGENHARIA DE RECURSOS HIDRICOS",]
enade <- enade[enade$curso!= "ENGENHARIA DE REDES DE COMUNICACAO",]
enade <- enade[enade$curso!= "ENGENHARIA DE TELECOMUNICACOES",]
enade <- enade[enade$curso!= "ENGENHARIA ELETRONICA",]
enade <- enade[enade$curso!= "ENGENHARIA ELETROTECNICA",]
enade <- enade[enade$curso!= "ENGENHARIA FISICA",]
enade <- enade[enade$curso!= "ENGENHARIA GEOLOGICA",]
enade <- enade[enade$curso!= "ENGENHARIA HIDRICA",]
enade <- enade[enade$curso!= "ENGENHARIA INDUSTRIAL",]
enade <- enade[enade$curso!= "ENGENHARIA INDUSTRIAL ELETRICA",]
enade <- enade[enade$curso!= "ENGENHARIA INDUSTRIAL MECANICA",]
enade <- enade[enade$curso!= "ENGENHARIA INDUSTRIAL QUIMICA",]
enade <- enade[enade$curso!= "ENGENHARIA MECATRONICA",]
enade <- enade[enade$curso!= "ENGENHARIA METALURGICA",]
enade <- enade[enade$curso!= "ENGENHARIA NAVAL",]
enade <- enade[enade$curso!= "ENGENHARIA QUIMICA E ENGENHARIA INDUSTRIAL QUIMICA",]
enade <- enade[enade$curso!= "ENGENHARIA SANITARIA",]
enade <- enade[enade$curso!= "ENGENHARIA (GRUPO III)",]
enade <- enade[enade$curso!= "ENGENHARIA (GRUPO V)",]
enade <- enade[enade$curso!= "ENGENHARIA (GRUPO VI)",]
enade <- enade[enade$curso!= "ENGENHARIA TEXTIL",]
enade <- enade[enade$curso!= "SISTEMAS DE INFORMACAO",]
enade <- enade[enade$curso!= "ADMINISTRACAO PUBLICA",]
enade <- enade[enade$curso!= "ARQUIVOLOGIA",]
enade <- enade[enade$curso!= "BIBLIOTECONOMIA",]
enade <- enade[enade$curso!= "CIENCIAS BIOLOGICAS (LICENCIATURA)",]
enade <- enade[enade$curso!= "COMUNICACAO SOCIAL",]
enade <- enade[enade$curso!= "EDUCACAO FISICA",]
enade <- enade[enade$curso!= "EDUCACAO FISICA (BACHARELADO)",]
enade <- enade[enade$curso!= "ESTATISTICA",]
enade <- enade[enade$curso!= "JORNALISMO",]
enade <- enade[enade$curso!= "MUSICA",]
enade <- enade[enade$curso!= "MUSICA (LICENCIATURA)",]
enade <- enade[enade$curso!= "PUBLICIDADE E PROPAGANDA",]
enade <- enade[enade$curso!= "QUIMICA (ATRIBUICOES TECNOLOGICAS)",]
enade <- enade[enade$curso!= "SECRETARIADO EXECUTIVO",]
enade <- enade[enade$curso!= "TEATRO",]
enade <- enade[enade$curso!= "TECNOLOGIA EM AGROINDUSTRIA",]
enade <- enade[enade$curso!= "TECNOLOGIA EM ALIMENTOS",]
enade <- enade[enade$curso!= "TECNOLOGIA EM AUTOMACAO INDUSTRIAL",]
enade <- enade[enade$curso!= "TECNOLOGIA EM COMERCIO EXTERIOR",]
enade <- enade[enade$curso!= "TECNOLOGIA EM CONSTRUCAO DE EDIFICIOS",]
enade <- enade[enade$curso!= "TECNOLOGIA EM DESIGN DE INTERIORES",]
enade <- enade[enade$curso!= "TECNOLOGIA EM DESIGN GRAFICO",]
enade <- enade[enade$curso!= "TECNOLOGIA EM ESTETICA E COSMETICA",]
enade <- enade[enade$curso!= "TECNOLOGIA EM FABRICACAO MECANICA",]
enade <- enade[enade$curso!= "TECNOLOGIA EM GESTAO COMERCIAL",]
enade <- enade[enade$curso!= "TECNOLOGIA EM GESTAO DA QUALIDADE",]
enade <- enade[enade$curso!= "TECNOLOGIA EM GESTAO DA TECNOLOGIA DA INFORMACAO",]
enade <- enade[enade$curso!= "TECNOLOGIA EM GESTAO DE TURISMO",]
enade <- enade[enade$curso!= "TECNOLOGIA EM GESTAO PUBLICA",]
enade <- enade[enade$curso!= "TECNOLOGIA EM LOGISTICA",]
enade <- enade[enade$curso!= "TECNOLOGIA EM MANUTENCAO INDUSTRIAL",]
enade <- enade[enade$curso!= "TECNOLOGIA EM PROCESSOS QUIMICOS",]
enade <- enade[enade$curso!= "TECNOLOGIA EM SANEAMENTO AMBIENTAL",]
enade <- enade[enade$curso!= "TEOLOGIA",]
enade <- enade[enade$curso!= "TERAPIA OCUPACIONAL",]

#Salvando o banco de dados que será utilizado na análise.
write.table(enade, "data/originaisEnade/enade.txt", sep="\t")

### END OF SCRIPT ###